Les données sont chargées à partir d’HUB’EAU, un service Eau France. Le package “hubeau” interroge les APIs du système d’informations.
library(hubeau)
library(tidyverse)
library(sf)
library(DT)
library(cowplot)
library(DT)
library(httr)#utiliser POST pour calcul i2m2 à partir du SEEE
library(trend)
library(ggrepel)
library(mapview)
library(lubridate)
library(httr)
library(ggplot2)
library(dplyr)
functions <- list.files(path = "R",
pattern = ".R$",
full.names = TRUE)
map(.x = functions,
.f = source)
## list()
Dans un premier temps, la distributions des variables a été étudiée. Cela a permis de repérer les outliers, les erreurs de rentrée et de les supprimées
La visualisation de la disponibilité des données nous a aidé à fixer un seuil à partir du quel on ne retient pas les stations. Ici, les stations de prélèvement biologiques sont retenues si le nombre d’années de prélèvement est supérieur à 5.
## [1] 112
Analyse univariée des variables
## $x
## [1] "Année"
##
## $y
## [1] "Variance"
##
## $title
## [1] "Variance de l'indice et ses métriques au fil des années"
##
## attr(,"class")
## [1] "labels"
## $x
## [1] "Année"
##
## $y
## [1] "Variance"
##
## $title
## [1] "Variance des indices au fil des années"
##
## attr(,"class")
## [1] "labels"
## $x
## [1] "Année"
##
## $y
## [1] "Variance"
##
## $title
## [1] "Variance des paramètres physico-chimiques au fil des années"
##
## attr(,"class")
## [1] "labels"
Tendances des indices et métriques.
On s’est intéressé aux classes d’état des indices I2M2 et IBD par station au cours du temps. On y observe un gradient ouest-est.
Les prélèvements physico-chimiques sont réalisés tout au long de l’année, parfois plus d’une fois par mois. Afin de réaliser des analyses bi-variées puis multivariées, il était nécessaire de retenir une période temporelle pour les paramètres physico-chimiques. Les critères sur lesquels se base cette sélection sont :
On néglige la richesse taxonomique et l’indice de Shannon dans le choix des périodes temporelle.
On retient alors : mars à décembre pour le taux de saturation en oxygène et l’oxygène dissous ; de janvier à mars pour la concentration en nitrates (période de lessivage due aux précipitations hivernales) et annuelle pour le reste des paramètres. A partir de ce choix, on calcule les moyennes annuelles puis interannuelles, cela nous permet d’avoir une approche entièrement spatiale (à l’échelle de la station). L’hypothèse de choisir une année au hasard est également possible, en sachant qu’il y a une stabilité des variables au cours du temps.
Après avoir fait le df, on obtient donc 232 lignes (correspondant au nombre de stations retenue pour la physico-chimie), et 14 colonnes correspondantes aux différents paramètres.
Les matrices de corrélation sont réalisées à partir de ce jeu de données. Le test utilisé est Spearman, car les valeurs n’ont pas une distribution normale (pour la plupart).
L’analyse des composantes principales est une analyse multivariée qui permet
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 112 individuals, described by 8 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 5.678827e+00 7.098533e+01 70.98533
## comp 2 1.229016e+00 1.536270e+01 86.34803
## comp 3 5.264650e-01 6.580812e+00 92.92884
## comp 4 3.356356e-01 4.195445e+00 97.12429
## comp 5 1.329082e-01 1.661353e+00 98.78564
## comp 6 6.820708e-02 8.525885e-01 99.63823
## comp 7 2.894161e-02 3.617701e-01 100.00000
## comp 8 3.043476e-08 3.804345e-07 100.00000
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 232 individuals, described by 14 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. for the variables"
## 4 "$var$cor" "correlations variables - dimensions"
## 5 "$var$cos2" "cos2 for the variables"
## 6 "$var$contrib" "contributions of the variables"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "summary statistics"
## 12 "$call$centre" "mean of the variables"
## 13 "$call$ecart.type" "standard error of the variables"
## 14 "$call$row.w" "weights for the individuals"
## 15 "$call$col.w" "weights for the variables"
## eigenvalue percentage of variance cumulative percentage of variance
## comp 1 5.946580838 42.4755774 42.47558
## comp 2 1.963092088 14.0220863 56.49766
## comp 3 1.317452081 9.4103720 65.90804
## comp 4 1.094888212 7.8206301 73.72867
## comp 5 0.959757908 6.8554136 80.58408
## comp 6 0.689899140 4.9278510 85.51193
## comp 7 0.551953981 3.9425284 89.45446
## comp 8 0.438951675 3.1353691 92.58983
## comp 9 0.336160229 2.4011445 94.99097
## comp 10 0.278898495 1.9921321 96.98310
## comp 11 0.206459006 1.4747072 98.45781
## comp 12 0.173738686 1.2409906 99.69880
## comp 13 0.039572202 0.2826586 99.98146
## comp 14 0.002595461 0.0185390 100.00000
## list()
##
## Call:
## glm(formula = I2M2 ~ DBO5 + NH4 + NO3 + Ptot, family = gaussian(link = "identity"),
## data = df_global_sans_stations)
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.05567 0.04315 24.464 < 2e-16 ***
## DBO5 -0.20703 0.03379 -6.128 1.51e-08 ***
## NH4 -0.38369 0.20535 -1.868 0.0644 .
## NO3 -0.00252 0.00123 -2.049 0.0429 *
## Ptot -0.40641 0.25937 -1.567 0.1201
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for gaussian family taken to be 0.01022435)
##
## Null deviance: 4.4409 on 111 degrees of freedom
## Residual deviance: 1.0940 on 107 degrees of freedom
## AIC: -188.57
##
## Number of Fisher Scoring iterations: 2
## Start: AIC=-188.57
## I2M2 ~ DBO5 + NH4 + NO3 + Ptot
##
## Df Deviance AIC
## <none> 1.0940 -188.57
## - Ptot 1 1.1191 -188.03
## - NH4 1 1.1297 -186.97
## - NO3 1 1.1369 -186.26
## - DBO5 1 1.4780 -156.88
##
## studentized Breusch-Pagan test
##
## data: model_normal_non_transformées
## BP = 5.8962, df = 2, p-value = 0.05244
## DBO5 NH4 NO3 Ptot
## 3.756000 2.987238 1.137254 3.899148
##
## Shapiro-Wilk normality test
##
## data: residuals(model_normal_non_transformées)
## W = 0.99003, p-value = 0.5881